\chapter{Realizacja}

\section{Opis danych wejściowych i sposobu ich pobierania}

Danymi wejściowymi  będą publikacje i dane patentowe dotyczące systemów eksperckich, oraz dane dotyczące zainteresowania internautów w tej dziedzinie. 

Dane wejściowe służące do otrzymania zmiennych objaśniających można podzielić na trzy typy. Są to:
\begin {itemize}
\item Dane o ilości publikacji z danej dziedziny i danej technologii, wydanych w zadanym roku
\item Dane o ilości zgłoszonych patentów dla danej technologii i dziedziny w zadanym roku
\item Współczynnik zainteresowania internautów daną technologią w danym roku. Źródło tych danych stanowi strona: http://www.google.com/trends
\end {itemize}

\subsection{Pozyskanie informacji o patentach i publikacjach}
Dane ilościowe o patentach i publikacjach zostały pobrane automatycznie przy pomocy programu BiblioBot (patrz \hyperlink{labA}{załącznik A}), z następujących źródeł:
\begin {itemize}
\item Publikacje:
  \begin {itemize}
	\item Google scholar: http://scholar.google.com
	\item ICM: http://vls2.icm.edu.pl
	\item CiteSeerX: http://citeseerx.ist.psu.edu/
	\item DBLP: http://dblp.mpi-inf.mpg.de
	\end {itemize}
\item Patenty:
  \begin {itemize}
	\item Google patents: http://www.google.com/patents
	\item Baza patentów espacenet: http://ep.espacenet.com
	\end {itemize}
\end {itemize}

Okres próbkowania danych to 1 rok. Dane zostały pobrane dla następujących technologii:
\begin {itemize}
\item Eksploracja danych (data mining).
\item Systemy wspomagania decyzji (decision support system).
\item Bazy wiedzzy (knowledge base).
\item Inżynieria wiedzy (knowledge engineering).
\item Uczenie maszynowe (machine learning).
\item Sieci semantyczne (semantic web).
\end {itemize}

Dla każdej technologii dane są podzielone według dziedzin:
\begin {itemize}
\item Ogólna (dowolna dziedzina)
\item Chemia, biologia, farmacja. Słowa kluczowe: chemiachemistry, pharmacology, biology.
\item Ekonomia, biznes. Słowa kluczowe: business, economics, managment.
\item Energia, elektryczność. Słowa kluczowe: energy, power, electricity.
\item Transport, logistyka, pojazdy. Słowa kluczowe: transport, logistics vehicle.
\item Produkcja, automatyzacja. Słowa kluczowe: manufacture, automation.
\item Medycyna, ochrona zdrowia. Słowa kluczowe: medicine, medical.
\item Socjologia, psychologia. Słowa kluczowe: social, human, psychology.
\end {itemize}

Program BiblioBot dane wyjściowe zapisuje w plikach tekstowych. W celu łatwiejszej akwizycji danych pliki te zostały zaimportowane do arkusza Excel-a (dane\_aktualne.xls). Import danych dokonany został automatycznie dzięki makrom zawartym w arkuszu.

Pojedyncza zakładka arkusza zawiera dane dla jednej technologii (nazwa zakładki stanowi nazwę technologii). Informacje na zakładce są zgrupowane według dziedziny, typu i źródła danych.

\subsection{Pozyskanie danych z google-trends}
\label{subs:google-trends}
Google-trends jest usługą internetową udostępnianą przez firmę Google i pozwalającą na uzyskanie danych ilościowych na temat popularności danej dziedziny wśród użytkowników wyszukiwarki Google. Dane takie można uzyskać w postaci trendów częstotliwości wyszukiwań konkretnych fraz. Wyniki uzyskuje się w postaci względnych wartości odpowiadających danemu okresowi w stosunku to średniej uzyskanej w całym okresie. Takie względne wartości są jednak wystarczające aby zaobserwować występujące trendy. Ponadto popularność usług Google na świecie, a w szczególności w Europie pozwala na trkatowanie tak uzyskanych wyników jako wiarygodnych wskaźników popularności dziedziny wśród społeczeństw. Dane można uzyskiwać również tylko dla konkretnego kraju.

W przypadku systemów eksperckich ograniczenie się do danych dla Polski nie prowadziło jednak do pożądanego celu, gdyż tak zawężona dziedzina poszukiwań nie pozwalała systemowi na zwrócenie wiarygodnych wyników. System odmawiał udzielenia informacji z powodu zbyt małej ilości danych. Dlatego też zebrane zostały dane o charaketrze ogólnoświatowym.

Uzyskano dane dla następujących fraz: ,,data mining'', ,,decision support system'', ,,decision support systems'', ,,expert system'', ,,expert systems'', ,,knowledge base'', ,,knowledge engineering'', ,,machine learning'', ,,semantic web''. Wyniki otrzymuje się dla tygodniowej rozdzielczości czasowej dla lat 2004 -- 2009. Rozdzielczość czasowa została następnie w fazie obróbki danych zamieniona na roczną a okres czasu wydłużony wstecz --- dane zostały ekstrapolowane na okres lat 2000 -- 2003.


Do analizy, w celu pozyskania zmiennych objaśnianych, użyliśmy danych gospodarczych z GUS, w tym wartości następujących wskaźników:
\begin {itemize}
\item Rachunek obrotów bieżących 
\item Rachunek obrotów kapitałowych 
\item Bezpośrednie inwestycje zagraniczne w Polsce 
\item Wydatki publiczne na edukację 
\item Nakłady na badania i rozwój 
\item Wykształcenie osób młodych 
\item Saldo budżetu państwa 
\item Saldo budżetu państwa w stosunku do PKB 
\item Dług publiczny w stosunku do PKB 
\item Dług publiczny 
\item Saldo obrotów towarowych handlu zagranicznego 
\item Terms of trade
\item Relacja salda obrotów towarowych handlu zagranicznego do PKB 
\item Śmiertelność noworodków na 1000 żywych urodzeń 
\item PKB w cenach bieżących 
\item Bezrobocie 
\item Bezrobocie długotrwałe 
\end{itemize}

